iT邦幫忙

2024 iThome 鐵人賽

DAY 15
0
IT 管理

Troubleshooting - 隔空抓藥的日常與實務技巧系列 第 15

Day 15 - 人終有一死,機器終有一壞(伺服器大部分解開始!)

  • 分享至 

  • xImage
  •  

伺服器與一般的家用主機有幾個顯而易見的差別。

一是價格,二是效能。兩者之間的關聯很好理解,因為效能很好所以價格很昂貴。

但是這樣子的關聯其實有些簡單化了伺服器的其他價值。一台伺服器除了效能以外,他的硬體本身對於可靠性的要求也是個影響其價格的很大因素。為了滿足可靠性的要求,高MTBF,能夠自我糾錯(ECC)、Mirroring,甚至修復的記憶體,磁碟陣列等等功能每一樣背後都需要有特殊的軟硬體設計來配合。

但是廠商當然會從那些相對重要的零件像記體憶,硬碟等設計糾錯與備援的功能,不過整台伺服器可以說是牽一髮動全身,不管是再小的零件只要有異常,照樣還是會造成重大的影響。今天的case就是一個小零件讓一群人大費周章的故事。

畫面來到了穩當當公司,這次的案件擔當是客服工程師D,客人向他回報有一台放置在資料中心的伺服器,位於第1個插槽的硬碟故障,但是先前此顆硬碟已經回報過相同的錯誤並做過更換。目前客人的計畫是再派人去一趟,但是想知道除了硬碟之外有沒有需要帶其他的零件一起過去,他們目前認為下一個需要換的東西是主機板。

D心想:「有沒有搞錯呀,什麼狀況都還沒搞清楚,而且HDD換了一次沒解決問題,竟然還要再換第二次?」

立馬先請客人緩緩,讓他先連絡一下RD,看有沒有什麼好意見。

客人表示會先等後續通知再進行下一步,但是這個產品的RD團隊人在國外,信寄出了一、兩天還是等不到回應。

客人又寫信來了,這次信上竟然寫著,明天會派工程師到資料中心過去,雖然他們不想換硬碟,但是目前沒有從D這邊收到任何指示。

天啊!為什麼一副非去不可的樣子呀,RD那邊不知道在忙什麼,寄了好幾封信過去都沒回應。這下子只好靠自己的硬實力先擋一擋了。

於是D決定給出以下指示:

    1. 先將第1個插槽的HDD與其他HDD交換位置,看這個錯誤是不是會跟著原來的HDD1,又或者停留在原來的插槽
    1. 如果錯誤跟著原來的HDD1的話,回報問題為第1個插槽的HDD會持續出現錯誤,問題源頭可能與HDD無關
    1. 如果錯誤跟著原來的插槽的話,問題源頭可能是插槽後方的訊號來源,不排除是RAID卡或是主機板

客人收到回覆後,在信中也能看到彷彿解脫的語氣,先是道謝而後表示會請到場的工程師帶著備用的RAID卡與主機板一起過去,由於進出的資料中心申請手續需要時間較長以及路途較遠,必要的時候會全部換掉以減少重複的拜訪。

這時候,D才看到RD終於回信了,本來想著再不回信,就算是跨國電話我也打去叫你起床尿尿!

但是信裡的回覆,竟然和D給出的決策幾乎無異,可能在RD看來,東西壞了不就拆拆換換,你問我還不如自己試試比較快吧。

不過也讓D鬆口氣,起碼自己給出的方向還是還有參考性的,就等客人換的結果再看看怎麼處理。說不定換好了,客人也不會再發信來煩了。

過了一兩天,客人又來信,HDD交換位置後,問題的確留在原來的插槽,但是想不到帶去的RAID卡與主機板都換了問題還是在那裡!並表示現在人正在資料中心等待進一步的指示,看能不能立即做什麼處理。

這下還真的是意料之外的發展,當下立馬把這個結果發信讓RD知道,同時也開始向其他人打聽這個RD有沒有其他的連絡方式。

「鈴鈴鈴!鈴鈴領!」結果D桌上的iPhone16突然響起了鈴聲。

咦?是公司的MVPN代表號?這個時間點會是誰打來的?

畢竟這樣子的電話不多,又在這個時間點打來,似乎會是通重要的電話,於是趕緊連忙接起,深怕等等撥不回去。

「喂!你好,我是D」
「.....Hello,My name is XXX from R&D dept。」

難得的好效率呀,而且這個時間點似乎是對方接近下班的時間了,願意撥這通電話過來真的是幫了大忙!

電話中RD對於這個結果也感到很意外,因為主要的硬體部件都已經更換了,還是有問題的話,只能朝向平常不會更換的線材等小配件做測試了。

電話中,RD給出硬碟訊號的傳遞,大致如下:

(1)HDD -> (2)HDD backplane Board -> (3)cable -> (4)raid card -> (5)MB

目前1, 4, 5都已經換掉了,(2)HDD backplane board的話機率雖然不大但也不是沒有可能,(3)cable壞掉的機率和HDD backplane board差不多,但是2一般來說現場不會準備,3有可能當初是和raid card放在同一個盒子。因此他們如果目前走之前想再做什麼測試的話,大概只剩3有機會了。

於是D趕快把電話中討論的內容寫成信件,寄出給客人,但是一直到當天下班都沒有再得到客人的回覆。

隔天一早,D正想著都換了這麼多東西了,如果還是不行,客人不知道還剩多少耐心陪我們這樣換東換西的。

果然,經典的案例就是因為沒有那麼容易解決才會成為經典。

客人來信了,這次開宗明義寫著,他們對於穩當當公司的這台伺服器感到非常的沒有信心。

如果給出的建議,還是無法協助排除問題的話,將會考慮把整台機器寄回穩當當公司,並在季度的報告上提報這個嚴重的錯誤。

「看來只剩最後一次機會了呀,隔空抓藥還被限制次數,這難道是什麼3A大作裡的成就任務要解嗎?」

這次再寄給RD的信,雖然沒有像上次立馬回電,但是對方也是秒回。信裡表示除了HDD backplane board外,只剩一張raid card與MB做轉接的riser board,雖然他經手這個產品到現在,從來沒有聽過有人的riser board壞掉,但是考量到只剩一次機會,就還是請客人也帶去試試。

寫完信寄出後,客人還不忘提前做準備,開始來問機器寄回時,地址跟收件人要寫誰。

「這客人也悲觀的過了頭了吧....人還沒到場,就已經先問機器的收件地址跟收件人了。」

很快的,D的下班時間要到了,出於逃避心態,從信寄出後,就維持著信箱兩個小時開一次的頻率。

「反正機器的地址跟收件人八成最後也是要寫我,早收信跟晚收信沒有差吧!」

差不多要到點了,正當D要關信箱跟電腦的那一刻,信還是來了。

Good News!

一句被客人字體設定成快要30的good news! 讓D心情大好!

下方是一張明明資料中心應該不能隨便拍照,但是還是附上的照片。

在密密麻麻的主機板元件以及cable中,照片裡有個亮亮的東西被用紅筆圈了起來。

客人表示他們正準備要換HDD backplane board時,在raid card的周圍看到了一個明顯沒有被固定在板子上的元件(IC or電容),工程師當下便停下更換HDD backplane board的動作,並把raid card拿下來檢查,但是並沒有發現任何異狀。

反而發現了,那個元件原本應該是處於還沒更換的riser board上,這點可以從帶去的riser board上的外觀明顯的看出來。

於是他們便將帶去的riser board做了更換,而後問題便完美的解決了!

像這樣子的元件脫落的情況,其實在業界並不少見,除了單一偶發的這種,可能是在現場人員維護時造成的脫落。
也有一種是因為伺服器內的元件密度太高,元件在抽換時,只有很有限的角度可以插拔。因此在研發時可能只有零星的問題被反應,甚至沒有被注意到,生產時如果也沒有被回報或留意的話,在更大規模的客戶端便會發生。

常見的解決方法像是貼上mylar等都能起到最基本的保護。


上一篇
Day 14 - 老虎,老鼠,傻傻分不清楚(最難識破的謊是對方不知道自己在說謊 - HW Performance Issue)
下一篇
Day 16 - PTSD of Live Troubleshooting - 除了技術以外實務上還需要注意的細節
系列文
Troubleshooting - 隔空抓藥的日常與實務技巧24
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言